Currently, most deep learning methods cannot solve the problem of scarcity of industrial product defect samples and significant differences in characteristics. This paper proposes an unsupervised defect detection algorithm based on a reconstruction network, which is realized using only a large number of easily obtained defect-free sample data. The network includes two parts: image reconstruction and surface defect area detection. The reconstruction network is designed through a fully convolutional autoencoder with a lightweight structure. Only a small number of normal samples are used for training so that the reconstruction network can be A defect-free reconstructed image is generated. A function combining structural loss and $\mathit{L}1$ loss is proposed as the loss function of the reconstruction network to solve the problem of poor detection of irregular texture surface defects. Further, the residual of the reconstructed image and the image to be tested is used as the possible region of the defect, and conventional image operations can realize the location of the fault. The unsupervised defect detection algorithm of the proposed reconstruction network is used on multiple defect image sample sets. Compared with other similar algorithms, the results show that the unsupervised defect detection algorithm of the reconstructed network has strong robustness and accuracy.
translated by 谷歌翻译
多尺度学习框架已被视为一种能够提高语义分割的能力类别。然而,这个问题并不是微不足道的,尤其是对于现实世界的部署,通常需要高效率推理潜伏期。在本文中,我们彻底分析了卷积块的设计(卷积的类型和卷积中的频道数量),以及跨多个尺度的相互作用方式,所有这些都是从轻量级的语义分割的角度来看。通过这样的深入比较,我们综述了三个原则,因此设计了轻巧且逐渐估计的网络(LPS-NET),这些网络以贪婪的方式在新颖地扩展了网络复杂性。从技术上讲,LPS-NET首先利用了建立小型网络的原则。然后,LPS-NET通过扩展单个维度(卷积块的数量,通道数量或输入分辨率)来逐步扩展到较大网络,以实现最佳的速度/准确性交易。在三个数据集上进行的广泛实验始终证明了LPS-NET优于几种有效的语义分割方法。更值得注意的是,我们的LPS-NET在CityScapes测试套装上达到73.4%MIOU,NVIDIA GTX 1080TI的速度为413.5fps,导致绩效提高1.5%,对抗最高的速度为65% - ART STDC。代码可在\ url {https://github.com/yihengzhang-cv/lps-net}中获得。
translated by 谷歌翻译
当1)培训数据集的类别分布P(Y)时,机器学习模型无法在现实世界应用程序上表现良好。现有方法无法处理存在两个问题的方案,但是对于现实世界应用程序来说,这很常见。在这项研究中,我们向前迈出了一步,研究了域转移下的长尾分类问题。我们设计了三个新颖的核心功能块,包括分布校准的分类损失,视觉语义映射和语义相似性引导性增强。此外,我们采用了一个元学习框架,该框架集成了这三个区块,以改善对看不见的目标域的域概括。为此问题提出了两个新的数据集,称为AWA2-LTS和Imagenet-LTS。我们在两个数据集上评估了我们的方法,并且广泛的实验结果表明,我们提出的方法可以比最新的长尾/域概括方法和组合实现优越的性能。源代码和数据集可以在我们的项目页面https://xiaogu.site/ltds上找到。
translated by 谷歌翻译
旨在用自然语言和谐地与人类交流的智能对话体系对于促进人工智能时代的人机互动的发展非常出色。有了逐渐复杂的人类计算机交互要求(例如,多模式输入,时间敏感性),传统的基于文本的对话系统很难满足对更加生动和方便的交互的需求。因此,视觉背景增强对话系统(VAD)有可能通过感知和理解多模式信息(即图像或视频中的视觉上下文,文本对话历史记录)与人类进行交流,已成为主要的研究范式。 VAD受益于视觉和文本上下文之间的一致性和互补性,具有产生引人入胜和背景感知响应的潜力。为了描述VAD的开发,我们首先表征VAD的概念和独特功能,然后介绍其通用系统体系结构以说明系统工作流程。随后,对一些研究挑战和代表性作品进行了详细研究,然后进行了权威基准摘要。我们通过提出一些开放问题和有前途的VAD研究趋势来结束本文,例如,在跨模式对话环境下,人机对话的认知机制以及知识增强的跨模式语义互动。
translated by 谷歌翻译
大量网络视频的杠杆作用以及搜索的查询或周围文本(例如标题)提供了一种经济且可扩展的替代方案,可用于监督视频表示学习。然而,由于查询多义(即查询的许多可能的含义)和文本同构(即不同文本的相同句法结构),对这种弱视文的连接进行建模并不是微不足道的。在本文中,我们介绍了查询和文本之间相互校准的新设计,以增强弱监督视频表示的学习。具体而言,我们提出了双重校准网络(BCN),这些网络在新颖地融合了两个校准,以学习从文本到查询的修正案,反之亦然。从技术上讲,BCN在通过相同查询搜索的视频的所有标题上执行聚类,并将每个集群的质心作为文本原型。查询词汇直接建立在查询单词上。对文本原型/查询词汇的视频对文本/视频对话预测,然后启动文本或查询到文本校准,以估算修正案以查询或文本。我们还设计了一个选择方案来平衡两个校正。两个大规模的网络视频数据集与查询和每个视频的标题配对,新收集到弱监督视频表示的学习中,分别命名为Yovo-3M和Yovo-10m。 BCN在3M Web视频上学习的视频功能在下游任务的线性模型协议下获得了卓越的结果。更值得注意的是,BCN在较大的10m网络视频中培训,进一步的微调导致1.6%,而动力学400的TOP-1准确性获得1.8%,而在最先进的情况下,一些v2数据集的v2数据集则是1.6%。 - ART TDN和ImageNet预训练的动作网方法。源代码和数据集可在\ url {https://github.com/fuchenustc/bcn}上获得。
translated by 谷歌翻译
作为视频的独特性,运动对于开发视频理解模型至关重要。现代深度学习模型通过执行时空3D卷积来利用运动,将3D卷积分别分为空间和时间卷积,或者沿时间维度计算自我注意力。这种成功背后的隐含假设是,可以很好地汇总连续帧的特征图。然而,该假设可能并不总是对具有较大变形的地区特别存在。在本文中,我们提出了一个新的框架间注意区块的食谱,即独立框架间注意力(SIFA),它在新颖的情况下深入研究了整个框架的变形,以估计每个空间位置上的局部自我注意力。从技术上讲,SIFA通过通过两个帧之间的差来重新缩放偏移预测来重新缩放可变形设计。将每个空间位置在当前帧中作为查询,下一帧中的本地可变形邻居被视为键/值。然后,SIFA衡量查询和键之间的相似性是对加权平均时间聚集值的独立关注。我们进一步将SIFA块分别插入Convnet和Vision Transformer,以设计SIFA-NET和SIFA-TransFormer。在四个视频数据集上进行的广泛实验表明,SIFA-NET和SIFA转换器的优越性是更强的骨架。更值得注意的是,SIFA转换器在动力学400数据集上的精度为83.1%。源代码可在\ url {https://github.com/fuchenustc/sifa}中获得。
translated by 谷歌翻译
卷积神经网络(CNN)被认为是视觉识别的首选模型。最近,基于多头自我注意力(MSA)或多层感知器(MLP)的无卷积网络变得越来越流行。然而,由于视频数据的差异和复杂性,利用这些新染色的网络进行视频识别并不是微不足道的。在本文中,我们提出了MLP-3D Networks,这是一种新颖的MLP型3D体系结构,用于视频识别。具体而言,该体系结构由MLP-3D块组成,其中每个块包含一个跨令牌施加的一个MLP(即令牌混合MLP),一个MLP独立地应用于每个令牌(即通道MLP)。通过得出新型的分组时间混合(GTM)操作,我们将基本令牌混合MLP配备了时间建模的能力。 GTM将输入令牌分为几个时间组,并用共享投影矩阵线性地映射每个组中的令牌。此外,我们通过不同的分组策略设计了几种GTM的变体,并通过贪婪的体系结构搜索在MLP-3D网络的不同块中组成每个变体。在不依赖卷积或注意机制的情况下,我们的MLP-3D网络分别获得68.5 \%/81.4 \%\%TOP-1的准确性,分别在某些V2和Kinetics-400数据集上。尽管计算较少,但结果与最新通用的3D CNN和视频变压器相当。源代码可从https://github.com/zhaofanqiu/mlp-3d获得。
translated by 谷歌翻译
本文对我们的系统进行了概述和比较分析,该系统专为Sapien Maniskill Challenge挑战2021中的以下两个轨道而设计:无相互作用轨迹:从预采用的演示轨迹中学习政策的无相互作用轨迹目标。我们研究了这两个基于模仿学习的方法,即使用经典监督学习技术模仿观察到的行为,以及基于线之后的基于强化学习的方法。此外,通过基于变压器的网络利用对象和机器人臂的几何结构和纹理结构,以促进模仿学习。无限制轨道:在此轨道中,我们设计了一种基于启发式规则的方法(HRM)来通过将任务分解为一系列子任务来触发高质量对象操作。对于每个子任务,采用简单的基于规则的控制策略来预测可以应用于机器人臂的动作。为了简化系统的实现,所有源代码和预训练的模型均可在\ url {https://github.com/caiqi/silver-bullet-3d/}上获得。
translated by 谷歌翻译
运动,作为视频中最明显的现象,涉及随时间的变化,对视频表示学习的发展是独一无二的。在本文中,我们提出了问题:特别是对自我监督视频表示学习的运动有多重要。为此,我们撰写了一个二重奏,用于利用对比学习政权的数据增强和特征学习的动作。具体而言,我们介绍了一种以前的对比学习(MCL)方法,其将这种二重奏视为基础。一方面,MCL大写视频中的每个帧的光流量,以在时间上和空间地样本地样本(即,横跨时间的相关帧斑块的序列)作为数据增强。另一方面,MCL进一步将卷积层的梯度图对准来自空间,时间和时空视角的光流程图,以便在特征学习中地进行地面运动信息。在R(2 + 1)D骨架上进行的广泛实验证明了我们MCL的有效性。在UCF101上,在MCL学习的表示上培训的线性分类器实现了81.91%的前1个精度,表现优于6.78%的训练预测。在动力学-400上,MCL在线方案下实现66.62%的前1个精度。代码可在https://github.com/yihengzhang-cv/mcl-motion-focused-contrastive-learning。
translated by 谷歌翻译
人类的行为通常是组合结构或图案,即受试者,物体,以及两者之间的时空相互作用。因此,发现这种结构是一种有价值的方式,可以推理互动的动态并识别动作。在本文中,我们介绍了一个新的子图设计,以表示和编码视频中每个动作的辨别模式。具体而言,我们呈现多尺度的子图学习(MOTE)框架,该框架,该框架新颖地构建空间时间图并将图形集群相对于节点的数量在每个比例上的紧凑型子图中。从技术上讲,Mudle在每个视频剪辑中产生3D边界框,即管弦,作为曲线节点,并将密集的连接作为管之间的图形边缘。对于每个操作类别,我们通过学习高斯混合层执行在线群集以将图形分解为每种比例的子图,并选择判别子图作为动作原型以进行识别。在某种东西上进行了广泛的实验 - 某种东西 - 某种东西 - 东西-400数据集,并且与最先进的方法相比,报告了卓越的结果。更值得注意的是,我们的柱子达到了最佳报告的准确性为65.0%的东西 - 某种东西的验证集。
translated by 谷歌翻译